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融合 社交 网 络 与 关键 用 户 的 并 行 协同 过 滤 推 荐 算法 
肖 成 龙 ， 王 ” 宁 '"， 王 永 贵 
(辽宁 工程 技术 大 学 软件 学 院 , 辽宁 戎 芦 岛 125105) 


摘 要 : 为 解决 传统 协同 过 滤 推 荐 算法 中 存在 的 数据 稀疏 、 冷 启动 以 及 推荐 结果 缺乏 多 样 性 等 问题 ， 提 出 一 种 融合 社 
交 网 络 与 关键 用 户 的 协同 过 滤 推 荐 算法 。 该 算法 在 用 户 -项 目 评分 矩阵 基础 上 ， 融 合用 户 社交 网 络 信息 得 出 社交 信任 憩 
阵 ， 融 合 关键 用 户 信息 得 出 关键 用 户 评分 矩阵 。 利 用 三 大 评分 矩阵 ， 分 配 不 同 的 权重 比例 ， 共 同 来 预测 用 户 对 于 目标 
项 目 评分 。 针 对 海量 数据 问题 ， 采 用 Spark 分 布 式 集群 实现 该 算法 的 计算 并 行 化 。 实 验 结果 表明 ， 该 算法 能 够 有 效 缓 
解数 据 稀 玖 问题 ， 提 高 处 理 速 度 和 推荐 准确 度 
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Parallel collaborative filtering recommendation algorithm based on 
social networks and key users 


Xiao Chenglong, Wang Ning', Wang Yonggui 
(College of Software, Laoning Program Technology University, Huludao Liaoning 125105, China) 


Abstract: In order to solve the problems such as sparse data, cold start and lack of diversity of recommendation results in 


traditional collaborative filtering recommendation algorithms, this paper proposes a collaborative filtering recommendation 


algorithm that integrates social networking with key users. Based on the score matrix of user projects, the algorithm integrates 
user social networks to derive social trust matrix, integrates key user information to obtain key user scoring matrix, and then 
uses these three matrix data distributions to predict user's target project with different weights. score. At the same time, aiming 
at the massive data problem, this paper uses the Spark distributed cluster to realize the parallelization of the algorithm. The 


experimental results show that the algorithm can effectively alleviate the data sparse problem and improve the data processing 


speed and recommendation accuracy. 
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(association rules)B1 、 基于 内 容 的 推荐 (content-based 


0 引言 


了 路 


recommendation) 由、 协同 过 滤 推 荐 (collaborative filtering)2 和 混 

随 着 互联 网 行业 的 飞速 发 展 ， 信 息 爆 炸 式 增长 ， 带 来 “ 信 合 推荐 (hybrid approach)51。 其 中 基于 关联 规则 推荐 是 以 关联 规 
息 过 载 ” 问 题 巾 ， 而 有 效 的 解决 方法 之 一 就 是 推荐 系统 。 它 可 则 为 基础 ， 把 已 购 商 品 作为 规则 头 ， 规 则 体 为 推荐 对 象 。 简 单 
以 根据 用 户 的 信息 需求 、 兴 趣 爱 好 等 ， 将 用 户 感 兴趣 的 内 容 或 的 说 就 是 在 一 个 交易 数据 库 中 统计 购买 商品 集 X 的 交易 中 有 多 
者 产品 推荐 给 用 户 ， 避 和 免 用 户 接收 大 量 无 用 信息 的 可 能 ， 实 现 大 比例 的 交易 同时 购买 商品 集 Y， 其 直观 的 意义 就 是 用 户 在 购 
个 性 化 的 信息 推荐 。 与 搜索 引擎 提供 的 “一 对 多 ” 式 的 信息 服 买 某 些 商品 的 时 候 有 多 大 倾向 去 购买 另外 一 些 商品 。 但 是 对 于 
务 不 同 ， 推 荐 系统 输出 的 结果 更 符合 用 户 的 个 性 化 需求 ， 实 现 ”关联 规则 的 发 现 最 为 关键 且 耗 时 ， 是 算法 的 瓶 了 项。 基于 内 容 的 
“一 对 一 ” 式 的 信息 服务 ， 同 时 用 户 的 参与 程度 也 更 低 ， 从 而 荐 ， 它 是 建立 在 项 目的 内 容 信息 上 作出 推荐 ， 而 不 需要 依据 
极 大 降低 用 户 搜寻 信息 的 成 本 叫 。 众 所 周知 ， 推 荐 系统 在 日 常 用 户 对 项 目的 评分 ， 更 多 地 需要 用 机 器 学 习 方 法 从 关于 项 目 内 
生活 中 、 各 大 门户 网 站 中 得 到 广泛 的 应 用 。 容 的 特征 描述 中 得 到 用 户 的 兴趣 资料 。 但 是 它 缺 点 是 要 求 项 
传统 的 推荐 系统 技术 主要 包括 基于 关联 规则 推荐 内 容 要 具有 结构 化 ， 同 时 该 内 容 能 够 容易 抽取 成 有 意义 的 特征 
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表示 。 协 同 过 渡 


之 


E 荐 是 


。 它 一 般 采 / 


/ 


pp 


从 而 根据 这 一 喜好 程度 来 对 目标 用 户 ; 
也 存在 一 定 的 次 端 ， 如 冷 启动 刘 
荐 系统 则 是 根 和 
法 进行 组 合 ， 


户 之 间 的 相似 怕 


最 近 令 技术， 利用 | 


荐 系统 中 应 用 


早 和 最 为 成 功 的 技术 
户 的 历史 喜好 信息 计算 


ChinaX 
等 : 融合 社交 网 络 em 办 同 过 滤 i 


页 测评 分 ， 计 算 所 有 项 目 对 目标 用 户 的 推荐 度 ， 
E 荐 给 用 户 ;d) 准 确 性 度量 ， 统 计 准 确 度 和 决策 


E， 然 后 利用 目标 用 


户 的 最 近邻 居 用 户 和 


品 的 加 权 评 价值 来 预测 目标 用 户 对 4 


居 不 同 


寺 定 商品 的 喜好 程度 ， 系 统 


题 ， 数 据 稀疏 问题 等 。 


荐 协同 有 不 同 的 优 缺 点 ， 将 不 同 失 


行 推荐 。 但 是 协同 过 渡 


状 对 商 


混合 推 


以 扬长 避 短 ， 然 而 尽管 从 理论 
合 方法 ， 但 在 某 一 具体 问题 中 并 不 见得 者 
最 重要 原则 就 是 通过 纪 


LE 荐 方 
着 组 


上 有 很 多 种 失 


了 有效 ， 组 合 推荐 
日 合 后 要 能 避免 或 弥补 各 自 推 荐 技术 的 弱 


a 


甘于 本 文 方法 的 推荐 系统 推荐 质量 。 
过 滤 推 荐 算法 简介 
传统 的 协同 过 滤 推 荐 算法 主要 包括 基于 用 户 的 协同 过 滤 推 


的 协同 过 滤 推 荐 算法 和 基于 模型 的 协同 过 滤 


项 目 评分 矩阵 


点 。 

相 比 于 这 几 大 类 推荐 技术 ， 基 了 过 滤 算 法 的 推荐 系统 
具有 较 好 的 准确 性 、 有 效 性 , 同时 以 其 出 色 的 鲁 棒 性 和 健壮 性 ， 
在 各 大 推荐 系统 中 被 广泛 使 用 。 基 协同 过 滤 方 法 中 存在 
的 冷 启 动 问题 、 数 据 稀 玻 问 题 也 得 到 国内 外 学 者 的 关注 。 冷 亚 
军 等 人 暂 认 为 数据 稀 琉 性 问题 会 从 近邻 搜寻 不 够 准确 和 近邻 评 
分 过 少 两 方面 对 协同 过 滤 产 生 不 利 影响 。 兮 小 兰 等 人 中 也 在 综 
述 中 提出 数据 稀 朴 、 冷 启动 和 扩展 性 是 协同 过 滤 推 荐 算法 所 面 


临 的 主要 问题 。 为 解决 数据 稀 疏 问题 ， 不 同 
使 用 奇异 值 分 解 来 降 
目的 。 孔 欣欣 等 
也 降低 客观 因素 对 用 


决 方案 ， 如 文献 [8] 
达到 降低 矩阵 稀疏 
评分 方法 来 最 大 


的 


生 的 
化 


文献 提出 不 同 的 解 
氏 评分 矩阵 的 维 数 从 而 
人 中 提出 一 种 标签 权重 
户 评分 的 影响 ， 有 效 


2 


党 的 系统 进行 


于 协同 过 滤 系 统 中 。 
性 ， 提 出 了 一 个 间 


明显 提升 , 改善 了 推 


要 性 ， 如 Jgsang 等 


缓解 用 户 的 评分 偏差 问题 。 同 时 很 多 学 者 提出 信任 关系 之 于 协 
69 对 能 够 获得 信任 


度 和 


述 ， 认 为 信任 度 和 声誉 应 当 作 
文献 [11] 融 合用 


矩阵 填充 的 失 


荐 过 程 中 存在 


E 荐 方法 ， 使 预测 评分 准 
的 稀 疏 性 问题 。Yang 等 人 MW 


提出 一 种 结合 用 广 


户 


言 任 关 系 的 改进 协同 


提供 的 稀 玻 误 平 


过 滤 的 推荐 性 能 。 


以 


洁 数 据 和 稀疏 的 社交 信 


数据 的 处 理 速 度 ， 另 一 方面 同时 考虑 用 
户 数据 信息 和 用 户 项 
数据 源 单一 问题 ， 从 而 提高 预测 评 
启动 问题 ， 提 供 具 有 多 样 性 的 推荐 结果 。 本 文 算法 主要 包括 以 
下 几 个 步 又: a) 数据 预 处 理 ， 对 Epinions 公开 数据 集 进 行 妆 
评分 信息 ， 用 


站 群体 中 信任 程度 高 的 若干 关键 用 广 


群体 中 的 关键 用 


口 


分 析 ， 得 到 用 


correlation coefficient) 计算 用 户 


和 矩 


题 ， 提 高 推荐 准 


上 方法 中 均 在 不 同 
确 度 ， 但 是 也 存在 各 


如 


阵 分 解 计算 复杂 度 


过 滤 推 荐 算法 。 


E 荐 结果 失真 (等 。 
因此 ， 本 文 提出 了 一 种 融合 社交 网 


FE 为 安全 机 
户 社 交 信任 度 和 评分 相 
前 度 


制 应 


过 滤 算 法 ， 通 过 集成 用 


数量 有 3 名 , 项 目 数量 有 5 个 ,矩阵 中 的 数值 代表 用 户 


推荐 方法 侧重 点 不 同 ， 适 用 环境 也 不 同 ， 但 对 
推荐 系统 来 说 一 般 包括 以 下 三 个 步骤 :首先 是 建立 评分 和 矩阵 
然后 是 计算 相似 性 ， 最 后 是 预测 评分 得 出 推荐 项 目 。 推 荐 算法 
0 


将 原始 数据 预 处 理 得 到 如 表 1 所 
其 中 行 代表 用 户 (U)， 列 代表 项 目 (I) 。 


评分 ， 分 值 1-5 之 间 ， 分 值 越 高 代表 该 用 户 对 该 项 目 


越 感 兴趣 ， 若 数值 空 着 则 代表 该 用 户 对 该 项 目 没有 评分 。 如 表 


表 1 用 户 -项 目 评分 矩阵 


L L L L 
1 4 4 5 
2 2 3 5 
4 4 4 5 


任 网 络 数据 来 提高 协同 
程度 有 效 缓解 数据 
自 的 局 限 性 ， 如 奇异 
高 ， 存 在 过 度 拟 合 和 缺乏 精确 性 ， 对 于 只 
采用 用 户 项 目 评 分 或 者 只 采用 用 户 信任 关系 数据 ， 都 会 存在 数 
据 源 单 一 问题 ， 造 成 


络 与 关键 用 户 的 并 行 了 


陋 玉 C 


准确 性 是 影响 推荐 质量 的 重要 因素 。 使 用 较 
为 广泛 的 相似 度 计 算 方 法 主要 包括 欧式 距离 相似 度 、Jaccard 相 
似 度 、 余 弦 相 似 度 、 修 正 的 余弦 相似 度 、Pearson 相似 度 [14,15] 
。 其 中 Pearson 相似 度 方 法 适用 于 数据 稀疏 性 小 ， 用 户 共 同 


数量 多 的 情况 ， 对 于 本 文中 算法 同时 采用 多 个 数据 
这 性 问题 ， 所 以 选用 Pearson 相似 度 ， 计 算 
公式 如 式 (1) 所 示 。 


Sim(u,v) = 


2 —r)x(r, 一 六 
0 


iehs 


其 中 : x， r, 分 别 代 表 用 户 w 和 用 户 y 对 项 目 ;的 评分 ,7 


方面 使 用 Spark 分 布 式 集群 


提高 对 于 海 


户 社交 网 络 信息 、 


户 项 


评分 信息 ， 有 效 的 避免 


9 准确 性 ， 有 效 的 解决 淮 


十 


二 


户 w 对 项 目的 平均 分 ， 代表 用 户 y 的 平均 分 ， 7 代表 
评分 过 的 项 目 交集 ， Sim(u,v) 代表 求 得 的 用 户 


1.3 预测 评分 及 给 出 推荐 


以 性 计算 结束 后 选取 若干 个 相似 度 高 的 用 户 ， 


作为 目标 


站 


息 ;b) 计 算 相 似 性 ， 将 多 
ee 


之 间 的 相似 性 ， 得 到 目标 


ba 


i 


项 目 i 的 评分 ， 需 要 考虑 目标 用 户 的 邻居 


近邻 用 户 的 评分 数据 进行 计算 ， 预 测 目标 
I 评分， 得 出 评分 较 好 的 Top-N 个 推荐 项 目 ， 为 用 


u 的 最 近邻 


的 评分 情况 ， 令 N 为 用 户 


201807.00059v1 


chinaXiv 


录用 稿 


居 集 合 , 则 预测 评分 公式 如 式 (2〉 所 示 。 


》 sim(u,v) x (rx, 一方) 
2) 


ui au 


1 VEN 
>》 |sim(u,v) 


veN, 


经 计算 ， 得 出 项 目 预测 评分 后 ， 选 取 其 中 的 评分 较 高 的 项 


目 (topN) 推 荐 给 ) 
1.4 协同 过 滤 一 般 流 程 


户 ， 完 成 推荐 功能 。 


本 章节 内 容 主要 介绍 J 
原始 数据 到 评分 矩阵 , 计算 相似 性 和 预测 评分 , 给 出 


流程 如 图 


1 所 示 。 


1 构建 用 户 项 | 、 2、 计算 用 户 相 
目 评分 矩阵 似 性 开 信 集 合 ) 目 评分 


图 1 协同 过 滤 推 荐 一 般 流程 


2 ”融合 社交 网 络 与 


协同 过 滤 推 荐 系统 的 一 般 流程 ， 从 


E 荐 结果 。 


3、 预测 目标 项 


4、 给 出 Top-N 
推荐 结果 


关键 用 户 的 协同 过 滤 推 荐 算法 


与 传统 协同 过 滤 


络 信息 和 关键 用 
源 ， 


E 荐 算法 不 同 ， 本 文 提出 融合 用 户 社交 网 
户 数据 的 
将 单一 数据 源 增 加 为 三 个 数据 源 ， 有 效 的 缓解 数据 集 稀 下 
问题 ， 三 个 数据 源 配 比 不 同 的 权重 ， 


行 协同 过 滤 失 


E 荐 算法 了 数据 


提高 预测 的 准 


的 多 样 性 。 同 时 提出 寻找 用 
具有 较 高 的 信任 度 ， 影 响 力 ， 更 具有 普 适 性 。 
过 滤 推 荐 系统 中 的 冷 启动 问题 ， 


站 群 中 的 关键 用 广 


对 于 新 用 广 


及 社 
系统 推荐 。 
2.1 


交 信任 关系 ， 此 时 可 采 | 


关键 用 户 信息 数据 为 新 用 广 


算法 描述 与 模型 设计 


本 文 算法 主要 包括 刀 
立 用 户 项 目 评分 矩阵 ， 
建立 关键 用 


户 评分 矩阵 。 然 后 使 
件 1stOpt (first optimization) 进行 回归 分 析 得 出 三 个 数据 源 的 


0 下 几 部 分 : 首先 是 数据 预 处 理 ， 包 建 
户 社 交 评 分 矩阵 ， 寻 找 关键 用 户 
数学 优化 分 析 综 合 工 具 软 


立 用 


对 应 权重 参数 ， 同 时 对 数据 进行 归 一 化 处 理 ， 再 计算 相似 度 ， 
得 出 目标 用 户 相似 度 高 的 近邻 集合 ， 最 后 由 近邻 集合 对 项 目 评 
分 情况 得 出 目标 项 目的 预测 评分 ， 选 取 Top-N 个 推荐 项 上 


2.1.1 构建 社交 网 络 信 任 矩 阵 


对 于 不 同 的 数据 集 ， 


提取 社交 网 络 信任 矩阵 的 方式 不 同 。 


对 于 本 文中 采用 的 是 已 和 


0 信任 关系 是 公开 数据 集 Epinions， 其 
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其 中 用 户 之 


间 的 信任 关系 是 双向 的 , 即 用 户 a 信任 用 户 b， 


但 是 用 户 b 不 
用 户 之 间 的 信 


度 为 0.9， 


I 
T 并 


而 用 


定 信任 用 户 a。 同 时 ， 对 于 非 显示 性 信任 数据 ， 
任 程度 也 不 一 致 ， 比 如 用 户 c 对 用 户 d 的 信任 程 
户 d 对 用 户 c 的 信任 程度 为 0.2， 对 于 非 显示 性 


信任 数据 需要 


2.1.2 构建 关键 用 户 评分 矩阵 


化 处 理 。 


进行 归 


所 谓 关 键 
影响 力 高 的 用 
关键 用 户 ， 提 


] 户 是 指 具 有 较 高 的 信任 度 ， 较 多 的 评分 记录 ， 
户 。 在 数据 集 所 有 用 户 数据 中 ， 找 出 信任 度 高 的 
取 关 键 用 户 的 评分 数据 ， 得 到 关键 用 户 的 评分 矩 


阵 T。 对 于 关 


设 


数据 可 视 化 软 
知 ， 对 于 大 量 


键 用 户 的 数量 和 质量 ， 可 根据 具体 实验 数据 进行 


。 截 取 Epinions 数据 集 部 分 数据 (前 100 条 数据 ) ， 通 过 
可 


牛 Gephi 处 理 ， 得 到 如 图 二 所 示 的 信任 关系 。 
数据 中 ， 均 会 存在 信任 关系 较为 集中 的 数据 点 ， 


该 点 对 应 的 用 
2824 的 节点 ， 
比 于 数据 集中 
重要 ， 有 具体 可 


239 
18432 


根据 信任 
评分 矩阵 如 表 


户 就 是 该 数据 集中 的 关键 用 户 。 如 图 2 中 编号 为 
编号 为 4294 的 节点 和 编号 为 23298 的 节点 ， 相 
其 他 节点 ， 关 键 用 户 节点 的 度数 较 多 ， 因 此 较为 
类 比 网 页 排名 PageRank 算法 [0181 。 
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图 2 社交 网 络 中 的 关键 月 
度数 ， 设 置 阔 值 ， 选 取 关键 用 户 
3 所 示 ， 其 中 尽 代表 关键 用 户 。 

表 3 ”关键 用 户 项 目 评分 矩阵 


户 


eel 


提取 关键 用 户 


Un 
UL. 2 
La 


(LA 
LU 
小 
和 
un 


2.1.3 相关 相似 性 计算 


中 月 


分 则 为 空 。 
同 评分 项 等 隐 性 
分 趋向 越 一 致 , 则 用 户 之 间 的 信任 程度 越 高 , 反之 越 低 , 如 


(user position similarity ) 方法 09、 用 


目 户 之 间 的 信 
对 于 


任 关 系 显 示 表 示 ， 信 任 数 据 范围 是 [0,1]， 无 评 
没有 显 性 信任 数据 时 ， 信 任 度 可 以 依据 用 户 共 
言 任 数 据 构 建 ， 即 用 户 之 间 的 共同 评分 项 的 评 
UPS 


户 间接 可 信 度 0 等 方法 构 


建 用 户 之 间 的 信任 度 。 用 户 信任 关系 如 表 2 所 示 。 
表 2 用 户 信任 关系 矩阵 
U, U, U, 
U, x 1 1 
U, 0 x 1 
Us 1 1 x 


对 于 本 文中 提出 的 算法 ， 除 需要 计算 用 
应 的 | 


户 项 目 评分 矩阵 对 
j 户 相似 性 外 ， 还 需要 计算 社交 信任 关系 矩阵 和 关键 用 户 


< 


平分 矩阵 分 别 对 应 的 相似 性 。 相 似 性 计算 方法 与 公式 (1) 相同 ， 


得 到 不 同 矩 阵 对 应 的 相似 性 结果 后 ， 通 过 不 同 的 权重 配 比 得 出 


最 终 相 似 性 计算 公式 如 〈3) 所 示 。 
Sim(u,v) = Quser _ sim(u,v)+ 


Bsns_ sim(u,v) + ykey_ sim(u,v) 


其 中 : g，B，y e(0,1) 而 且 @+ B+y=1， 它们 是 对 不 同 评分 矩 
户 项 目 评分 矩阵 计算 
户 相 似 度 ， sns _sim(u,v) 是 社交 网 络 信任 矩阵 得 到 的 用 户 


阵 的 相似 性 调控 参数 。user _sim(u,v) 是 用 
的 用 


(3) 


相似 度 ，key_sim(u,v) 是 基于 关键 用 户 评分 和 矩阵 得 到 的 用 广 
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IV: 


pb 


录用 稿 


似 度 ， 


2.1 


主要 包括 如 下 几 个 步骤 : 
体 过 程 如 上 
公式 如 式 (3) 所 示 ;c) 


数 志 


项 目 相似 度 ， 


本 文 提 出 的 融合 社交 网 络 与 关键 


此 得 出 最 终 的 用 户 相似 度 yim(u,v)。 
.4 算法 流程 


用 户 的 协同 过 滤 


E 荐 算法 


虽 和 矩阵 ， 


标 项 目的 评分 ， 


目 。 整 个 算 


公式 如 


述 所 示 ;b) 


a) 数 据 预 处 理 


已 住 但 


由 原始 数 


由 - 霖 - 


采用 皮尔 逊 相关 


导 到 三 大 
系数 计算 


法 流程 如 图 


3 所 示 。 


用 户 项 目 
评分 拭 阵 


式 (2) 所 示 。 最 


后 得 到 topN 个 


预测 目标 
项 目 评分 


关键 用 户 
评分 拒 阵 
图 3 ”本文 算法 流程 示意 图 


2.2 ”并行 化 算法 流程 设计 


的 协同 过 滤 反 
在 Spark 中 为 入 
车 计算 操作 。Spark 编程 模型 中 提供 了 各 种 算 子 操 
大 矩阵 的 计算 得 出 三 个 
以 度 RDD， 

住 荐 项 


map(),reduce(),join(),filter0) 等 。 通 


得 出 最 终 的 用 
在 Spark 


E 荐 算法 , 经 


在 Spark 分 布 式 集群 系统 中 实现 融合 
过 数据 预 处 理 


数 和 


户 间 的 机 
实现 并 行 化 过 程 中 ， 
居 集 分 布 式 的 存储 在 Spark 内 
一 次 数据 存储 文件 系统 HDFS， 相 比 于 hadoop 全 
访 存 次 数 ， 降低 通信 开销 。 算法 


数据 均 


过 对 三 
相似 度 RDD， 之 后 以 不 同 的 权重 配 比 合 
日 似 度 , 计算 预测 评分 , 给 用 户 ] 
以 RDD 格式 存储 ，RDD 
存 中 ， 整 个 过 程 中 只 需要 访问 


个 相 


邻居 集 项 目 评分 预测 


社交 网 络 与 关键 用 户 
后 , 得 到 三 大 矩阵 数据 ， 
E 阵 提供 了 不 同方 式 的 分 布 式 存储 选择 和 多 种 身 
作 更 


荐 项 


TIGI 


比如 


hinaXiv 
肖 成 龙 ， 傅 估 


C FE 
等 :融合 社交 网 络 与 关键 用 户 的 并 行 协同 过 泪 推 荐 算 ; 


x[1].500).cache() 


# 统 计 


户 间 都 喜欢 的 物品 


Pairwise_users = Item_user.filter(lambda x:len(x[1]>1)).map(lamb 


da x:findUserParirs(x[0],x[1])).groupByKey() 


# 计 算 相 似 度 ， 包 括 用 户 相 似 度 (user_sim(u,v))， 
似 度 (sns_sim(u,v)) 和 与 关键 


与 信任 
户 相 似 度 (key_sim(uv)) ， 


户 相 
Du 


ser_sim(u,v) 为 例 


user_sim(u,v) = Pairwise_users.map(lambda x:calcSim(x[0],x[1])). 


map(lambda x:keyOnFirstUser(x[0], 


x[1])).groupByKey().map(lambda x:nearestNeighbors(x[0],x[1],5 
0)); 


# 组 合 相似 度 ， 配 比 不 同 权重 得 到 最 终 相 似 度 


sim(u,v) = user_sim(u,v).join(sns_sim(u,v)).join(key_sim(u,v)).map 


(x => Qox[l]+ Bx[2] + yx[3] ),sortKeyO.cellect 


# 为 


户 推荐 前 N 个 感 兴趣 的 物品 


Recommend item = sim(u,v).map(lambda x:topNRecommendation 


s(x[0],x[1],uib.value,50)).collect 


3 ”实验 及 结果 分 析 


实验 数据 

本 文 实验 数据 选择 Epinions 公开 数据 集 作 为 实验 数据 ， 
Massa 在 http:Wwww.epinions.com 网 站 收集 整理 所 [1 

向 


3.1 


uy 
内 
| 


三 | 
候 


并 行 化 实现 的 伪 代 码 如 下 所 示 : 


本 文 算法 Spark 并 


行 化 实现 


Input : 


推荐 给 


Output : 


户 N 个 感 兴趣 的 电影 


userid::movieid::rating; userid::userid::trust 


# 从 HDFS 中 读 取 记 


F 分 数据 、 信 任 3 


系 和 关键 


户 评分 


Scl = SparkContext(SyS.argv[1], ”Userbased ); 


Sc2 = 


Sc3 = 


Linesl 


Lines2 


Lines3 


Parttions = P; 


# 并 行 化 实现 ， 得 到 


= Scl.textFile(sus.argv[4]); 


= Sc2.textFile(sus.argv[4]); 


= Sc3.textFile(sus.argv[4]); 


户 -项 


SparkContext(Sys.argv[2], "SNSbased”); 


SparkContext(SyS.argv[3], Keyuserbased ); 


倒 排 表 〈 以 Linesl 为 例 ) 


Item_user = Linesl.parallenlize(0 until P).map(parseVectorOnlte 


m).groupByKey().map(x[0]. 


包括 49,290 位 用 户 评分 对 139,738 个 不 同 的 项 目 评 分 ， 
数据 为 [1,5] 之 间 的 整数 ， 得 分 越 高 表示 用 户 越 喜欢 该 项 目 。 
时 也 包含 664 824 条 用 户 间 的 社交 数据 ， 
表示 用 户 间 的 关系 是 积极 的 ， 认 为 是 信任 数据 ， 信 任 值 为 
其 余 不 存在 信任 关系 即 为 0。 
3.2 ”实验 环境 
本 文中 实验 集群 


使 用 的 是 青云 控 睹 


| 
(https://www.qingcloud.com/) 提 供 的 专业 Spark 集群 ， 免 去 集群 


搭建 的 繁琐 过 程 ， 同 时 严格 控制 集群 中 每 一 台 机 器 的 完整 


性 ， 提 供 广泛 的 型 号 规格 可 选择 空间 ， 包 括 不 同 处 理 器 型 号 


| 


它 
9]。 


评分 


同 


其 中 487 181 条 记录 


1 ， 


据 ， 大 小 不 等 的 内 存 配置 主机 。 本 实验 
(master) 和 五 个 从 节点 (worker) ，Spark 
主机 均 为 双核 处 理 器 ，4GB 运行 内 存 。 
3.3 测评 指标 
常用 的 协 
类 是 评分 准确 度 ， 
误差 (MSE)、 
对 推荐 系统 进行 评价 ， 适 | 
另 一 类 是 分 类 准确 度 ， 通 过 计算 准确 率 (precision) 、 
Gecal)、F 1 指标 和 ROC 曲线 面积 来 评价 推荐 系统 ， 


中 设 


版 本 为 2.2.0， 六 


台 
条 
致 
数 
点 
台 


同 过 滤 推 荐 算法 评价 指标 ， 主 要 包括 两 大 类 ， 一 
通过 计算 平均 绝对 误差 MAE)、 平 均 平方 根 
均 方 根 误差 (RMSE) 和 标准 平均 绝对 误差 (NMAE) 
于 比较 关注 精确 的 预测 评分 系统 ; 
召 a 


适用 于 


201 dd 
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录用 稿 肖 成 龙 ， 等 : 4 xs 5 na YA 
有 明确 二 分 喜好 的 系统 [20]。 其 中 ， 准 确 率 定义 为 系统 的 推荐 交 网 络 信任 矩阵 和 关键 用 户 评 分 矩阵 ， 以 不 同 的 相似 度 权 重 共 
列表 中 用 户 喜欢 的 产品 和 所 有 被 推荐 产品 的 比率 ; 准确 率 表示 同 来 预测 评分 ， 得 出 推荐 结 
用 户 对 一 个 被 推荐 产品 感 兴趣 的 可 能 性 。 召 回 率 定 义 为 推荐 列 根据 以 上 算法 ， 使 用 同一 公开 数据 集 ， 同 一 主机 分 别 测试 
表 中 用 户 喜欢 的 产品 与 系统 中 用 户 喜欢 的 所 有 产品 的 比率 ; 召 本 文 算法 和 其 他 算法 ， 计 算 对 应 的 评价 指标 ， 得 到 如 图 4 所 示 
可 率 表示 一 个 用 户 喜 欢 的 产品 被 推荐 的 概率 。 除 此 两 大 类 外 ， 结果 。 
还 有 计算 评分 关联 信息 、 计 算 排序 加 权 指 标 和 禾 盖 率 等 评价 指 
标 。 在 本 文中 采 评 分 准确 度 中 的 平均 绝对 误差 (MAE) 和 均 方 根 WW MAE 图 RMSE 
误差 (RMSE); 分 类 准确 度 中 的 准确 率 (precision) 和 召回 率 15 L185 T1127 
GecalD) 进 行 评价 。 要 ns 

评分 准确 度 中 MAE 计算 的 是 所 有 训练 集 测试 用 户 对 测试 i 
页 目的 预测 评分 和 实际 评分 的 平均 误差 大 小 ,计算 公式 如 式 (4) 0 I | 
所 示 ， 其 中 了 表示 训练 集中 的 用 户 数据 集合 N 表示 训练 集 0 图 
项 目 数目 ， 己 ,表示 用 户 w 对 项 目 ; 的 预测 评分 ，R， 表示 用 UserCF ItemCF TDSRec SNKUCF 
户 的 真实 评分 。 算法 名 称 

MAE=— PIP 一 玉 ， (4) 
N 各 图 4 四 种 算法 实验 结果 对 比 

RMSE 计算 用 户 的 真实 评分 与 预测 评分 值 的 均 方 根 误差 ， 在 数据 集 Epinions 中 选取 前 500 条 数据 ， 测 试 针对 三 大 相 
计算 公式 如 式 (5) 所 示 。 似 度 配 比 不 同 权重 的 效果 差异 ， 其 中 己 知 gr+B+y=1， 上 且 

0< a,B,y <1， 分别 设置 不 同 取 值 , 共 测 试 42 种 权重 分 配 情况 ， 
RMSE = (5) 
其 中 当 &=B=0.4，y=0.2 时， 效果 最 好 。 由 该 权重 配 比 ， 测 
于 本 文 数据 集 为 5 分 制 数据 ， 欲 将 其 划分 为 三 分 制 ， 则 试 本 文 算法 与 其 他 算法 的 平均 绝对 误差 和 均 方 根 误 差 。 同 时 测 
认为 评分 大 于 3 的 商品 认为 是 用 户 喜 欢 ,反之 认为 用 户 不 喜欢 。 试 了 该 权重 配 比 下 ， 对 于 不 同 规模 的 数据 集 ， 其 准确 率 和 召回 
公式 中 Rw) 代表 为 用 户 推荐 的 项 目 列表 , 7 为 测试 集中 用 户 评 。 率 变 化 情况 ， 分 别 选取 数据 集 前 100 条 数据 ， 前 500 条 数据 ， 
分 高 于 3 分 的 项 目 列表 。 分 类 准确 度 准 确 率 计算 公式 如 式 (6) ”前 1000 条 数据 等 进行 测试 ， 实 验 结果 如 图 5 所 示 。 
Ma 日 准确 率 (%) 召回 率 (%) 
和 RT) 0 187 a 
Precision = p> (6) A pi as 
召回 率 计算 公式 如 式 (7) 所 示 。 | 四 
Den kh | 目 | 
Recall = 和 一 一 一 一 一 ”OO (7) 0 1 二 
数据 规 村 
3.4 实验 结果 分 析 图 5 准确 率 和 召回 率 

为 了 评价 本 文 算法 的 综合 性 能 ， 将 本 文 算法 与 其 他 算法 进 由 图 5 数据 可 知 ， 随 着 数据 规模 的 增 大 ， 预 测 准确 率 在 逐 
行 如 下 几 组 对 比 实验 。 步 增加 ， 成 正 相 关 。 与 此 同时 ， 召 回 率 也 在 逐步 增加 ， 但 在 数 

a) 传 统 基 于 用 户 的 协同 过 滤 推 荐 系统 (UserCF)〉 。 传 统 算 。 据 集 为 2000 条 数据 时 有 回落 趋势 .在 其 他 算法 中 准确 率 与 召 匠 
法 是 仅 使 用 用 户 -项 目 评分 矩阵 , 通过 计算 用 户 间 的 相似 度 进行 ”” 率 基本 成 负 相关 关系 ， 本 文 算 法 与 其 他 实验 结果 趋势 相符 ， 但 
预测 评分 和 推荐 。 趋势 变化 范围 没有 其 他 算法 明显 ， 在 本 文 算法 中 用 户 项 目 评分 

b) 传 统 基于 项 目的 协同 过 滤 推 荐 系统 (ItemCF) 。 该 方法 和 社交 网 络 信任 用 户 评分 可 以 有 效 提高 推荐 的 准确 度 ， 引 入 关 
同样 使 用 用 户 -项 目 评 分 和 矩阵， 但 计算 方式 与 UserCF 不 同 ， 计 ” 键 用 户 评分 则 有 效 扩展 推荐 的 多 样 性 ， 因 为 关键 用 户 之 间 兴 趣 
算 项 目 间 的 相似 度 进行 预测 评分 和 推荐 。 差异 度 较 大 。 

c) 融 合 社交 网 络 特征 的 协同 过 滤 推 荐 算法 (TDSRec)P1 该 同时 测试 了 在 Spark 集群 中 共 6 台 主 机 ， 本 文 算法 的 时 间 
方法 在 考虑 社交 网 络 的 同时 ,融合 基于 用 户 评分 偏好 的 相似 性 ， 效率 ， 与 单机 算法 运行 时 间 进 行 对 比 ， 计 算 集 群 加 速 比 。 加 速 
同 对 用 户 评分 矩阵 中 的 数据 值 进行 评分 预测 。 比 ， 是 同一 个 任务 在 单 处 理 器 系统 和 并 行 处 理 器 系统 中 运行 消 

融合 社交 网 络 与 关键 用 户 的 协同 过 滤 推 荐 算法 耗 的 时 间 的 比率 ， 用 来 衡量 并 行 系统 或 程序 并 行 化 的 性 能 和 效 
(SNKUCF)〉 。 本 文 算法 同时 兼顾 用 户 项 目 评分 矩阵 ， 用 户 社 。 果 。 计 算 公 式 如 式 (8) 所 示 。 
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(8) 


其 中 :5, 是 加 速 比 ,是 单 处 理 器 下 的 运行 时 间 ，7, 是 在 有 p 


个 处 理 器 下 的 运行 时 间 。 实 验 结果 如 表 4 所 示 。 
表 4 并 行 化 性 能 验证 
数据 规模 集群 规模 运行 时 间 /min 加 速 比 
1 3.56 到 
10000 条 4 1.02 3.39 
6 0.65 5.48 
1 7.08 _ 
20000 条 4 1.93 3.67 
6 1.20 5.89 
1 14.24 本 
30000 条 4 3.68 3.86 
6 2.71 5.25 
2 16.72 - 
40000 条 4 4.41 3.79 
6 2.84 5.88 
分 布 式 集群 计算 结果 表明 ， 并 行 化 处 理 能 够 有 效 提高 问题 
求解 速度 ， 集 群 规模 与 时 间 效率 基本 上 成 线性 负 相 关 ， 同 时 数 
时 分 配 过 程 中 不 可 避免 会 产生 通信 代价 ， 消 耗 部 分 时 间 ， 但 
加 速 比 变化 情况 可 知 随 着 数据 规模 的 增加 ， 通 信 代 价 所 占 比 侦 


逐步 减 小 。 


音 决 推荐 系统 中 存在 的 评分 数据 稀疏 ， 冷 启动 问题 ， 以 

问题 ， 对 于 大 数据 的 处 理 问 题 ， 本 文 提 出 并 实现 了 融 
社交 网 络 和 关键 用 户 的 并 行 协同 过 滤 推 荐 算法 ， 由 本 文 算法 
结果 表明 ， 该 算法 能 够 有 效 缓解 数据 稀 疏 问题 ， 提 高 推荐 
， 缩 短 系统 运行 处 理 时 间 。 
未 来 拟 对 推荐 系统 中 评价 指标 进行 进 
他 评价 方法 ， 用 来 全 面 系统 评价 推荐 质量 ， 
多 样 性 ， 新 颖 性 等 指标 进行 量化 评价 。 


步 研究 ， 以 提出 其 
包括 对 推荐 结果 的 
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